requests+re模块,爬取《和平精英》武器信息

您所在的位置:网站首页 吃鸡 和平精英图片枪 requests+re模块,爬取《和平精英》武器信息

requests+re模块,爬取《和平精英》武器信息

2023-09-09 08:23| 来源: 网络整理| 查看: 265

requests+re模块,爬取《和平精英》武器信息 1.分析网页2.获取数据3.分析数据4.下载图片5.格式化输出数据6.主函数

1.分析网页

【1】首先,我们找到《和平精英》的游戏资料https://gp.qq.com/cp/a20190522gamedata/pc_list.shtml,在这里我们发现有游戏中的武器、配件、物资、载具和地图等信息,本文以武器的基本信息为例进行爬取,其他信息方法类似,咱不赘述。 游戏资料页面

【2】接下来,我们检查页面,点击Network,选择XHR,然后选择第2条数据。在这里,我们发现网页中的数据都是通过json数据加载来的,而不是静态页面。 检查页面

【3】我们再来分析json数据,这里可以直接看到json数据的URL,这正是我们想要的东西,同时我们也知道了该URL的Request Method是get方法,通过这些我们便可以获取武器、配件、物资、载具这些数据。 请求头的基本信息

【4】但是在爬取的过程中发现,这样并不能爬取成功,于是我们再看Headers这里有没有其他需要的参数来获取json数据。在最下方找到了我们需要的parmas值,这样就可以把这里的参数添加到程序中,从而成功爬取数据。 请求头中需要的参数

2.获取数据

直接上代码

def get_html_text(url): """ 获取页面json数据 :param url: :return: """ headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'} parmas = { 'callback': 'dealCallBack', '_': 1566815094736 } try: r = requests.get(url, headers=headers, params=parmas, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding result = r.text result = result.replace('dealCallBack(', '').replace(')', '') # 只留下"dealCallBack(……)"中间……这一部分 result = json.loads(result) return result except: return ''

其中,url = ‘https://gp.qq.com/zlkdatasys/data_zlk_hpjywqzlk.json’。这样我们就得到了该网页的json数据了。

3.分析数据

分析时发现,源网页的json数据列表+字典套的层数比较多,这里使用正则表达式直接分析,找到每一个属性对应的key,然后再分析得到属性值。

def parse_page(ilt, html): """ 使用re模块,利用正则表达式分析json数据,ilt列表中存储需要的数据 :param ilt: :param html: :return: """ try: # 将数据转成字符串 html = str(html) # 找到所有的武器名称 name = [] namelt = re.findall(r"'mc_94': '.*?'", html) for i in range(len(namelt)): name_temp = namelt[i].split(': ')[1].strip("'") if len(name)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3